代码转换(CS)是多语言个体所表现出的常见语言现象,在一次对话中,它们倾向于在语言之间交替。 CS是一种复杂的现象,不仅包含语言挑战,而且还包含大量的复杂性,就其在说话者之间的动态行为而言。鉴于产生CS的因素因一个国家而异,并且从一个人到另一个人都不同,因此发现CS是一种依赖说话者的行为,在该行为中,外语被嵌入的频率在说话者之间有所不同。尽管几位研究人员从语言的角度研究了CS行为,但研究仍然缺乏从社会学和心理学角度预测用户CS行为的任务。我们提供了一项经验用户研究,我们研究用户的CS级别和性质特征之间的相关性。我们对双语者进行访谈,并收集有关他们的个人资料的信息,包括他们的人口统计学,个性特征和旅行经验。然后,我们使用机器学习(ML)根据其配置文件来预测用户的CS级别,在此我们确定建模过程中的主要影响因素。我们试验分类和回归任务。我们的结果表明,CS行为受到说话者之间的关系,旅行经验以及神经质和外向性人格特征的影响。
translated by 谷歌翻译
诗歌的语音综合是由于诗意语音固有的特定语调模式而具有挑战性的。在这项工作中,我们提出了一种将诗歌与几乎像人类一样自然的综合诗作的方法,以使文学学者能够系统地检查有关文本,口头实现和听众对诗歌的相互作用的假设。为了满足文学研究的这些特殊要求,我们通过从人类参考朗诵中克隆韵律价值来重新合成诗,然后利用细粒度的韵律控制来操纵在人类的环境中的合成语音以改变朗诵W.R.T.具体现象。我们发现,对诗歌的TTS模型进行鉴定会在很大程度上捕捉诗歌语调模式,这对韵律克隆和操纵是有益的,并在客观评估和人类研究中都验证了我们方法的成功。
translated by 谷歌翻译
在这项工作中,我们提出了一个说话者的匿名管道,该管道利用高质量的自动语音识别和合成系统来生成以语音转录和匿名扬声器嵌入为条件的语音。使用电话作为中间表示,可确保从输入中完全消除说话者身份信息,同时尽可能保留原始的语音内容。我们在Librispeech和VCTK Corpora上的实验结果揭示了两个关键发现:1)尽管自动语音识别会产生不完美的转录,但我们的神经语音合成系统可以处理此类错误,使我们的系统可行且健壮,并且2)结合来自不同资源的扬声器嵌入,有益及其适当的归一化至关重要。总体而言,我们的最终最佳系统在2020年语音隐私挑战挑战中提供的基线在与懒惰的攻击者的稳健性方面相当大,同时保持了匿名语音的高度理解性和自然性。
translated by 谷歌翻译
使用未转录的参考样本来克隆说话者的声音是现代神经文本到语音(TTS)方法的巨大进步之一。最近还提出了模仿转录参考音频的韵律的方法。在这项工作中,我们首次将这两项任务与话语级别的扬声器嵌入在一起,首次将这两个任务融合在一起。我们进一步引入了一个轻巧的对准器,用于提取细粒度的韵律特征,可以在几秒钟内对单个样品进行填充。我们表明,正如我们的客观评估和人类研究表明,我们可以独立地独立地独立语言参考的声音以及与原始声音和韵律高度相似的韵律的韵律,正如我们的客观评估和人类研究表明。我们的所有代码和训练有素的模型都可以以及静态和交互式演示。
translated by 谷歌翻译
深度学习一直是自然语言处理(NLP)领域的主流技术。但是,这些技术需要许多标记的数据,并且在整个域之间不太概括。元学习是机器学习研究方法的一个领域,以学习更好的学习算法。方法旨在改善各个方面的算法,包括数据效率和概括性。在许多NLP任务中已经显示出方法的功效,但是在NLP中没有系统的调查,这阻碍了更多的研究人员加入该领域。我们使用这篇调查文件的目标是为研究人员提供NLP中相关的元学习作品的指针,并吸引NLP社区的更多关注以推动未来的创新。本文首先介绍了元学习和共同方法的一般概念。然后,我们总结了任务构建设置和用于各种NLP问题的元学习的应用,并审查NLP社区中元学习的发展。
translated by 谷歌翻译
尽管可解释的AI的大量研究重点是产生有效的解释,但较少的工作致力于人们如何理解和解释解释的问题。在这项工作中,我们通过研究基于显着性数据的解释来关注这个问题。文本模型的特征属性解释旨在传达输入文本的哪些部分比其他部分更具影响力。许多当前的解释方法,例如基于梯度或基于沙普利价值的方法,都提供了重要的衡量标准,这些方法在数学上是众所周知的。但是,一个人接受解释(解释)如何理解它?他们的理解是否与解释试图交流的内容相匹配?我们从经验上研究了输入的各种因素,特征 - 贡献解释和可视化程序对Laypeople对解释的解释的影响。我们询问人群工人对英语和德语的任务进行解释,并根据感兴趣的因素适合他们的回答。我们发现人们经常误解解释:尽管有直接传达重要性的解释,但肤浅和无关的因素(例如单词长度)影响了解释者的重要性分配。然后,我们证明其中一些失真可以减弱:我们提出了一种基于过度感受和低估的模型估计的方法来调整销售的方法,并探索条形图作为热图显着性可视化的替代方法。我们发现两种方法都可以减轻特定因素的扭曲作用,从而使对解释的理解更好地理解。
translated by 谷歌翻译
代码切换(CS)是多语言社区中的常见语言现象,其包括在说话时在语言之间切换。本文提出了我们对普通话 - 英语CS演讲的结束地理识别的调查。我们分析了不同的CS特定问题,例如CS语言对中语言之间的属性不匹配,切换点的不可预测性质,以及数据稀缺问题。通过使用分层Softmax的语言识别通过建模子字单元来利用非语言识别来利用非统计符号来利用和改善最先进的端到端系统,通过人为地降低说话率,并通过使用增强数据来实现子字单元。使用速度扰动技术和几个单机数据集不仅可以在CS语音上提高最终性能,还可以在单​​格式基准上,以使系统更适用于现实生活环境。最后,我们探讨了不同语言模型集成方法对提出模型性能的影响。我们的实验结果表明,所有提出的技术都提高了识别性能。最佳组合系统在混合误差率方面将基线系统提高到35%,并在单机基准上提供可接受的性能。
translated by 谷歌翻译
我们调查密集连接的卷积网络(DENSENETS)及其扩展,以域对抗稳健性演讲识别。Densenets是非常深的,紧凑型卷积神经网络,对计算机视觉的最先进的结果表明了令人难以置信的改进。我们的实验结果表明,除了基于神经网络的基于神经网络之类的诸如深馈神经网络和卷积神经网络之类的基于神经网络的模型,Densenets更加稳健。此外,域对抗性学习可以进一步提高抗体对两者的鲁棒性,已知和未知的噪声条件。
translated by 谷歌翻译
多种语言的扬声器倾向于在对话中的语言之间交替,该现象称为“代码切换”(CS)。CS是一种复杂的现象,不仅包括语言挑战,而且在讲话者的动态行为方面也包含大量复杂性。社会学家和心理学家研究了这种动态行为,确定了影响CS的因素。在本文中,我们对阿拉伯语 - 英语CS提供了实证用户研究,在那里我们展示了用户CS频率和字符特征之间的相关性。我们使用机器学习(ML)来验证调查结果,通知和确认现有理论。预测模型能够预测用户的CS频率,精度高于55%,其中旅行经验和人格特征在建模过程中起最大的作用。
translated by 谷歌翻译
本文提出了我们在改进患有数据稀缺的代码切换语言模型的最新努力。我们调查通过人为生成它们来增加代码切换培训文本数据的方法。具体地,我们提出了一种基于循环一致的对手网络的基于框架,将单晶文本传输到代码切换文本中,考虑代码切换为讲话方式。我们在Seame Corpus上的实验结果表明,利用人工生成的码切换文本数据始终如一地提高语言模型以及自动语音识别性能。
translated by 谷歌翻译